智能论文笔记

Using Non-Stationary Bandits for Learning in Repeated Cournot Games with Non-Stationary Demand

Kshitija Taywade , Brent Harrison , Judy Goldsmith

分类：机器学习

2022-01-03

在建模重复的法院游戏时，许多过去的尝试都认为需求是静止的。这与现实世界的情景不一致，其中市场需求可以通过产品的一生以无数的原因来实现。在本文中，我们模拟了重复的Cournot游戏，不符合非静止需求，使得公司/代理人面临非静止多武装强盗问题的单独实例。代理可以选择的武器/行动代表离散生产量;这里，排序动作空间。代理商是独立和自主的，无法观察到环境中的任何事情;他们只能在采取行动后看到自己的奖励，只能努力最大化这些奖励。我们提出了一种新颖的算法对加权探索（AWE）$ \ EPSILON $ -GREEDY'的自适应，这些探索基于众所周知的$ \ epsilon $ -greedy方法远程。该算法检测和量化由于不同的市场需求而导致的奖励的变化，并与需求变化程度的程度不同，从而使代理能够更好地识别新的最佳动作。为了有效探索，它还部署了一种用于称重利用有序动作空间的动作的机制。我们使用模拟来研究市场上各种均衡的出现。此外，我们在系统中的总代理数量和行动空间的大小之间研究了我们的方法的可扩展性。我们在我们的模型中考虑对称和不对称的公司。我们发现，使用我们提出的方法，代理商能够根据需求的变化迅速改变他们的行动方针，并且在许多模拟中也从事契合行为。

translated by 谷歌翻译

我们调查了多辅助多武装强盗（MA-MAB）设置来建模重复的Cournot寡头寡头寡头杆游戏，该公司作为代理的公司从代表生产量（离散值）的武器中选择。代理商与单独和独立的强盗问题交互。在这种制定中，每个代理人在武器之间进行连续选择，以最大化自己的奖励。代理商没有有关环境的任何信息;在采取行动后，他们只能看到自己的奖励。但是，市场需求是行业总产量的静止功能，不允许随机进入或从市场退出。鉴于这些假设，我们发现$ \ epsilon $ -greedy方法提供比其他传统MAB方法更加可行的学习机制，因为它不需要对系统进行任何额外的知识来运作。我们还提出了两种旨在利用订购的行动空间：$ \ epsilon $ -greedy + hl和$ \ epsilon $ -greedy + el。这些新方法通过消除较少的有利可图的选择，帮助公司专注于更有利可图的行动，从而旨在优化勘探。我们使用计算机模拟来研究结果中各种均衡的出现，并对关节累积遗憾进行实证分析。

translated by 谷歌翻译

在现实世界中，人/实体通常独立和自主地找到匹配，例如寻找工作，合作伙伴，室友等。这一搜索可能无法对环境的初始知识开始。我们建议使用多档强化学习（MARL）范式，以便在空间制定的分散双面匹配市场与独立和自主代理商。独立行动的自主代理使我们的环境非常动态和不确定。此外，代理商缺乏对其他代理人的偏好知识，并必须探索环境并与其他代理商互动，通过嘈杂的奖励来发现自己的偏好。我们认为这样的设置更好地近似了现实世界，我们研究了我们的Marl方法对它的有用性。除了传统的稳定匹配情况下，代理程序严格排序偏好，我们检查了我们与不完整名单和联系的稳定匹配方法的适用性。我们调查我们的稳定性，不稳定水平（不稳定的结果）和公平性。我们的Marl方法主要产生稳定和公平的结果。

translated by 谷歌翻译